Menghadapkan Paradigma Pemanfaatan Data: Spektrum Pelabelan
Keberhasilan penerapan model Machine Learning sangat bergantung pada ketersediaan, kualitas, dan biaya data yang telah diberi label. Dalam lingkungan di mana anotasi manusia mahal, tidak layak, atau sangat spesialis, paradigma standar menjadi tidak efisien atau bahkan gagal total. Kami memperkenalkan spektrum pelabelan, yang membedakan tiga pendekatan utama berdasarkan bagaimana mereka memanfaatkan informasi: Pembelajaran Terawasi (SL), Pembelajaran Tak Terawasi (UL), dan Pembelajaran Semi-Terawasi (SSL).
1. Pembelajaran Terawasi (SL): Kualitas Tinggi, Biaya Tinggi
SL bekerja pada dataset di mana setiap input $X$ secara eksplisit dipasangkan dengan label kebenaran sejati $Y$. Meskipun pendekatan ini biasanya mencapai akurasi prediksi tertinggi untuk tugas klasifikasi atau regresi, ketergantungannya pada anotasi yang padat dan berkualitas tinggi bersifat intensif sumber daya. Kinerja menurun drastis jika contoh yang dilabeli langka, membuat paradigma ini rapuh dan sering kali tidak layak dari segi ekonomi untuk dataset besar yang terus berkembang.
2. Pembelajaran Tak Terawasi (UL): Penemuan Struktur Tersembunyi
UL hanya bekerja pada data tanpa label, $D = \{X_1, X_2, ..., X_n\}$. Tujuannya adalah menarik kesimpulan struktur intrinsik, distribusi probabilitas dasar, densitas, atau representasi bermakna dalam manifold data. Aplikasi utamanya termasuk klastering, pembelajaran manifold, dan pembelajaran representasi. UL sangat efektif untuk pra-pemrosesan dan rekayasa fitur, memberikan wawasan berharga tanpa bergantung pada masukan manusia eksternal.
Diberikan: $D_L$: Data Terlabel. $D_U$: Data Tanpa Label. $\mathcal{L}_{SL}$: Fungsi Kerugian Terawasi. $\mathcal{L}_{Consistency}$: Kerugian yang memaksakan kelancaran prediksi pada $D_U$.
Bentuk konseptual dari total kerugian SSL adalah jumlah terbobot dari dua komponen: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Skalar $\lambda$ mengendalikan kompromi antara keakuratan label dan ketergantungan struktur.